【stata】基础指令 |
您所在的位置:网站首页 › id card number是什么意思 › 【stata】基础指令 |
开一文记录和总结stata的学习,不断更新中~ 拿到一个数据集,首先要全局了解一下这个数据集的情况: 【describe】查看这个数据集的简要介绍,包括了样本数量(obs:)、变量数量(vars:)、大小(size:)、以及每个标量的简要介绍。 【describe[varlist]】:可以单独选择某个变量查看,[]表示可选。 【describe,short】:只看整个数据集的总体概况,即截图显示的上半部分。 【count】:number of rows 【count if missing() 】:设置条件 【isid()】:check if an variable uniquely id entifies the data.检查变量是否唯一标识数据,相当于判断主属性。 【unique】先安装,指令【ssc install unique】 重复值数据量(所有数据量)和唯一值(不重复的数据)数据量。 【codebook】:适合初次接触一个数据集时查看一些信息 类型(numeric: )、标签(label)、范围(range)、单位(units)、特异值(unique)、缺失值(missing)、以及一些统计量。这样,我们对于该变量有一个初步的了解。 【codebook [varlist][if][in][,options]】 varlist:变量名单(>=1) if:逻辑判断 in:第几个到第几个观测值 eg: in 10/100 指第10到第100个观测 in 10 第10个 in 10/l 第10个到最后一个 in f/10 第一个到第10个 options:一些自定义的选项 更多详情:【help codebook】 【summarize[varlist] [if] [weight] [,options]】:print summary statistics (mean,stdev,min,max) for varible 变量的摘要统计信息(平均值、标准偏差、最小值、最大值) 注:【summarize】=【sum】=【summ】 与【codebook】的一些不同请参考help histogram 直方图 【histogram varname [if] [in] [weight] [,[continuous_opts| discrete_opts] options】 varname:只能有一个变量呀~ histogram=hist 常用指令:hist varname/ hist varname,freq/ hist varname,bu(varname2) y轴统计量: 1.density (stata默认的) 2.fraction=frac 3.frequency=freq 4.percent (实例:此处hist varname) A.直方图可以设定宽度\开始值\直方组数 如图:1:连续变量 2:离散变量 B.添加density plots(可以拟合数据的分布) (实例: ) Graph box/hbox 箱线图 【graph box yvars [if] [in] [weight] [,options]】 【graph hbox yvars [if] [in] [weight] [,options]】 说明 1.直观明了地识别数据批中的异常值 箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。 2.利用箱线图判断数据批的偏态和尾重 对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数); 而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。 3.利用箱线图比较几批数据的形状 图解 异常值:离群值,超过上下限的值,被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。 IQR:上四分位-下四分位 (实例如下图,box/hbox) Vioplot 小提琴图 显示数据分布及其概率密度 注:stata中未自带需要安装 安装:【ssc install vioplot】 【vioplot varlist [if] [in] [weight] [,option] 】 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |